查看原文
其他

论文推荐|汉字层次学习的自由基分析网络

张建树 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍2020年2月被Pattern Recognition录用发表的论文“Radical Analysis Network for Learning Hierarchies of Chinese Characters”的主要工作。该论文是2018年发表在ICME上的文章的升级版,主要解决了基于偏旁部首的中文汉字建模问题,能够有效解决中文汉字的低频字和集外字识别问题。该论文中介绍的方法获得了自然场景文本行识别竞赛MTWI 2018的冠军,突出了该算法较基于整字建模的中文识别算法的优势。


一、研究背景

中文汉字作为全世界使用人数最多的文字,一直以来都是识别研究的热点。然而,汉字因其持有的特色给该识别任务带来了三个难题:1. 汉字文化博大精深,汉字的种类数目十分庞大,常用简体汉字约7000多类,而非常用简体和繁体汉字约十万多类;2.汉字文化历史悠久,有很多古文汉字,且由于采集难度大,这类汉字成了稀缺资源,构成了少量样本识别问题;3.由于网络文化风靡以及汉字固有的象形特性,越来越多的新生汉字不断出现,这类汉字往往由已有的偏旁部首变形组合并构成新鲜的富有特殊意义的汉字,当这类新生汉字出现时往往无法提前采集,所以构成了零样本识别问题。针对这三个问题,文章提出RAN (Radical Analysis Network)网络来进行以偏旁部首为基本单元的汉字识别模型训练,并在由打印体汉字构成的集合上成功验证了可行性。本文进一步提升了RAN模型,并将其在自然场景下的汉字识别任务上进行了实验分析,以及将其扩展到了文本行识别任务上,进一步提高了RAN的实用价值。


二、汉字内部偏旁部首结构简述  

Fig.1. (a) Hierarchical radical structure of an example Chinese character. The radicals are on the leaf nodes, and the structures are at the parent nodes. (b) Graphical representation of 10 common radical structures.

Fig.1解释了汉字内部的偏旁部首结构。从Fig.1(a)中可见,汉字内部的偏旁部首结构其本质为一个树形结构,且由于汉字结构的特性,这种树形结构固定为二叉树结构,即每个空间结构仅与两个元素相关。以这个“殿”字为例,其首先由一个左右结构构成,然后左边结构又可进一步拆解为左上包围结构以及更深一层的上下结构,而右边结构可进一步拆解为上下结构。最后,我们遵循深度优先遍历的顺序遍历这个树,就得到了Fig.1(a)下方所示的偏旁部首序列,且与汉字类别之间是一一对应关系,因此识别汉字类别任务可转换成偏旁部首序列生成任务。Fig.1(b)展示了构成汉字的偏旁部首之间的全部10种空间结构。

用偏旁部首序列识别汉字可以从本质上解决汉字识别的三大问题:1.汉字虽然有十万类别,但是偏旁部首总共就500多个,且空间结构总共10个,这样分类类别数大大的缩减了;2.对于少量样本和零样本汉字识别问题,以偏旁部首来建模就能有效解决,因为偏旁部首和基本的空间结构都已在已有的汉字类别当中学到过,所以能做到对低频字和集外字的正常识别。

 
三、RAN结构介绍 

Fig.2. Overall architecture of RAN for radical based Chinese character recognition.

Fig.2介绍了RAN的基本框架,不同于传统整字方法直接将输入图片进行整字分类,RAN首先用CNN编码器对输入图片提取高维视觉特征,再使用解码器依次解出该汉字的偏旁部首序列,注意到在每次解码时,模型都会使用注意力机制对该汉字进行偏旁部首切分和结构检测,例如在解码图中紫色框和蓝色框的偏旁部首前,需要注意力机制正确的进行偏旁部首切分,在解码绿色框的上下空间结构前,需要注意力机制正确定位到上下两个部首的中间位置。解码出偏旁部首序列后,我们就可从预先定义好的汉字与偏旁部首序列的对应字典里成功将输入与汉字类别对应起来。当我们试图去识别从未见过的新生汉字时,模型也能解码出该汉字图片的偏旁部首序列,为了将新生汉字与类别对应,我们仅需在这个对应字典里添加新的对应关系即可,不需要额外训练模型。 


Fig.3. Illustration of the extension of RAN for radical based Chinese text line recognition.
      

Fig.3介绍了RAN用于文本行识别的基本框架,区别于字符识别,编码器在CNN后接上了双向RNN用于提高上下文编码能力,并且采用多头注意力机制以提高切分准确度,在每个汉字偏旁部首序列之间添加“eoc”作为各序列之间的分隔符。在识别时,依靠“eoc”将各序列分隔开,依次到对应字典里搜索即可匹配上对应的汉字类别,再连接成文本行。

 
四、主要实验结果 

Fig.4. Recognition performance of RAN for 17533 unseen character categories with respect to the number of Chinese characters in the training samples.
         

Fig.4所介绍的实验中,训练集由挑选过的汉字类别以宋体图片作为输入,挑选的汉字旨在保证包含全部的偏旁部首,而测试集的17533个中文汉字在训练集里从未出现过,所以说Fig.4介绍了RAN识别集外字的能力。可以看到,当训练集仅有8000汉字时,用DenseNet作为编码器的RAN就能在17533的集外字上达到90%的识别率。


Fig.5. (a) Recognition of newly created Chinese characters from the Internet; (b) Recognition of rarely used ancient Chinese characters.

Fig.5展示了RAN识别宋体的新生汉字和古文字的能力,其中Fig.5(a)为网络新生汉字,Fig.5(b)为古文字,这些汉字目前在现有公开字典里找不到对应的类别,但是RAN仍正确的将它们的偏旁部首序列解了出来。

Table 1. Comparison of the performance of powerful image classifiers and RAN on the CTW test database.

Table 1显示了RAN在自然场景下(CTW数据集[2])的零样本和少量样本汉字识别问题,其中“OOV”表示这类汉字从未在训练集里出现过,“<20”表示这类汉字在训练集里出现的频数小于20,同样类推到“<100”,“HF”表示在训练集出现频数超过100的高频汉字,其中“DenseNet135”和RAN使用的编码器完全一样,对比它们之间的结果能很明显的看出RAN的优势。

Table 2. Detailed comparison of the text line recognition performance of CTC, character based encoder-decoder and RAN.

Table 2显示了RAN在自然场景文本行识别(MTWI 2018)下和基于整字的Encoder-Decoder模型的比较,以及和基于CTC的方法的比较(CRNN[3], SCCM[4]),其中Encoder-Decoder和RAN使用同样的编码模型和解码模型,同等对比性能就能看出RAN的零样本识别能力、少量样本识别能力、以及抑制汉字多类别冗余度的能力。同样的结论在Fig.6中也能得到,在识别由红色标记的繁体字时,Encoder-Decoder由于从未在训练集里见过这类字,导致无法识别,但是RAN依然能正确识别。

Fig.6. Two examples of text lines containing low-frequency Chinese characters (underlined and shown inred).
(更详细的内容请参考原文,链接附后)。
 
五、总结及讨论 
  1. RAN提出使用Image-to-sequence模型来实现基于偏旁部首的汉字识别模型,从根本上解决了汉字类别数目庞大、古文汉字等生僻字带来的少量样本识别问题和网络新生汉字带来的零样本识别问题。
  2. RAN不仅在打印体汉字上得到了验证,同样在自然场景下也得到了进一步验证,且该方法可以成功拓展到文本行识别,说明了该算法的实用性。
  3. 论文当中使用的汉字与偏旁部首序列的对应关系已经开源,可便利后续的相关研究。且该方法可直接借鉴到日文、韩文等其他有基本组成部件的字符识别问题上。
 
六、相关资源 
  1. RAN-ICME地址:http://staff.ustc.edu.cn/~jundu/Publications/publications/4.pdf
  2. RAN-PR地址:https://www.sciencedirect.com/science/article/abs/pii/S0031320320301096

  3. IDS对应字典地址:https://github.com/JianshuZhang/RAN
 
参考文献 

[1] J. Zhang, Y. Zhu, J. Du, and L. Dai,“Radical analysis network for zero-shot learning in printed Chinese character recognition,” ICME 2018.

[2] T. Yuan, Z. Zhu, K. Xu, C. Li and S. Hu, “Chinese Text in the Wild,” arXiv: 1803.00085.

[3] B. Shi, X. Bai and C. Yao, “An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition,” IEEE TPAMI, 2017.

[4] F. Yin, Y. Wu, X. Zhang and C. Liu, “Scene text recognition with sliding convolutional character models,”arXiv: 1709.01727.

  

原文作者:Jianshu Zhang, Jun Du, Lirong Dai

 

撰稿:张建树

编排:高 学

审校:连宙辉

发布:金连文



免责声明:1)本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 



往期精彩内容回顾



征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。




(扫描识别如上二维码加关注)


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存